#!/usr/bin/env bash

python create_pretraining_data.py --do_whole_word_mask=True --input_file=pretrain_corpus.json \
--output_file=pretrain_corpus.tfrecord --vocab_file=./resources/vocab.txt \
--do_lower_case=True --max_seq_length=256 --max_predictions_per_seq=23 --masked_lm_prob=0.10  --random_seed=12345  --dupe_factor=5
